聚类算法案例二 例题9.6
9.6 试析AGNES算法使用最小距离和最大距离的区别。 最大距离可以认为是所有类别先生成一个能包围所有类内样本的最小圆,然后所有圆同时慢慢扩大相同的半径,哪个类圆能完全包围另一个类则停止,并合并这两个类。由于此时的圆已经包含另一个类的全部样本,所以称为全连接。
最小距离则是扩大时遇到第一个非自己类的点就停止,并合并这两个类。由于此时的圆只包含另一个类的一个点,所以称为单连接。
当两个类簇比较大且距离比较远,但是有两个点距离对方比较近时,那么单链接算法会把这两个类簇合并,导致产生拉长的类簇而不是一般情况下的圆形类簇,这被称为链式效应。因为这个算法经常由于链式效应而把不相似的对象放到同一类簇中,所以是空间压缩的(space contracting)。
当两个类簇中至少有一对比较远离的对象时,全链接算法会最后合并这两个类簇,于是相似对象会长时间待在不同类簇中,这被称为分离效果(dissection effect)。所以,全链接算法是空间扩张的(space dilating)。  当聚类簇距离由最小距离,最大距离,平均距离计算时,AGNES算法被相应地称为单链接single-linkage,全连接complete-linkage或均连接average-linkage算法。
K=2
K=3
K=4